特征离散是将连续的数据进行分段,使其变为多个离散化区间。针对该场景,PAI推出了分箱组件和数据转换模块组件。首先使用分箱组件将连续特征离散化,再使用数据转换模块将原始数据从连续值转换为离散值。本文为您介绍如何使用Designer组件进行连续特征离散化。
前提条件
操作步骤
进入Designer页面。
登录PAI控制台。
在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。
在工作空间页面的左侧导航栏选择 ,进入Designer页面。
创建空白工作流,并进入工作流,详情请参见新建自定义工作流。
其中:
工作流名称:配置为基于分箱组件实现连续特征离散化。
描述:配置为使用PAI提供的分箱组件,实现连续特征离散化。
可见范围:选择仅自己可见。
构建工作流流程。
在左侧组件列表,将源/目标下的读数据表组件拖入画布中。
在左侧组件列表,将金融板块下的分箱和数据转换模块组件拖入画布中。
将以上组件拼接为如下工作流。
配置组件参数。
单击画布中的读数据表组件,在右侧面板,配置工作流数据源。
页签
参数
描述
表选择
表名
输入pai_online_project.iris_data。
分区
该公共数据表为非分区表,因此分区复选框不支持选中。
字段信息
源表字段信息
配置表名后,系统会自动同步该数据表的源表字段信息,无需手动配置。
单击画布中的分箱组件,在右侧面板,配置参数(仅配置如下参数,其他参数使用默认值即可)。
页签
参数
描述
字段设置
特征列
选择f1、f2、f3及f4列。
参数设置
分箱个数
配置为10,表示将连续特征离散化至10个区间中。
分箱方式
支持等频、等宽及自动分箱。使用自动分箱时,数据源必须包含label字段,且为二分类场景。本文以等频分箱为例。
单击画布中的数据转换模块组件,在右侧面板,配置参数(仅配置如下参数,其他参数使用默认值即可)。
页签
参数
描述
字段设置
不进行转换的数据列
选择type列,该列会原样输出。
数据转换的类型
选择Index。
单击画布上方的运行按钮。
查看工作流运行结果。
工作流运行结束后,右键单击画布中的数据转换模块组件,在快捷菜单,单击 ,即可查看离散化结果。
右键单击画布中的分箱组件,在快捷菜单,单击我要分箱。
单击待查看特征(以f1特征列为例)名称,即可查看该特征的分箱详情,如下图所示。
单击图表页签,以图表的形式查看分箱结果。
相关文档
您可以使用Designer完成其他的AI开发任务,关于Designer更详细的内容介绍,请参见Designer概述。